In real teaching scenarios, an excellent teacher always teaches what he (or she) is good at but the student is not. This method gives the student the best assistance in making up for his (or her) weaknesses and becoming a good one overall. Enlightened by this, we introduce the approach to the knowledge distillation framework and propose a data-based distillation method named ``Teaching what you Should Teach (TST)''. To be specific, TST contains a neural network-based data augmentation module with the priori bias, which can assist in finding what the teacher is good at while the student are not by learning magnitudes and probabilities to generate suitable samples. By training the data augmentation module and the generalized distillation paradigm in turn, a student model that has excellent generalization ability can be created. To verify the effectiveness of TST, we conducted extensive comparative experiments on object recognition (CIFAR-100 and ImageNet-1k), detection (MS-COCO), and segmentation (Cityscapes) tasks. As experimentally demonstrated, TST achieves state-of-the-art performance on almost all teacher-student pairs. Furthermore, we conduct intriguing studies of TST, including how to solve the performance degradation caused by the stronger teacher and what magnitudes and probabilities are needed for the distillation framework.
translated by 谷歌翻译
域的概括旨在学习一个可以很好地概括在看不见的测试数据集(即分布数据集)上的模型,该数据与培训数据集不同。为了解决计算机视觉中的领域概括,我们将损失景观理论引入该领域。具体而言,我们从损失景观的角度从四个方面(包括骨干,正则化,训练范式和学习率)引起了深度学习模型的概括能力。我们通过进行广泛的消融研究和可视化来验证有关NICO ++,PAC和VLCS数据集的提议理论。此外,我们将该理论应用于ECCV 2022 NICO挑战1,并在不使用任何域不变方法的情况下获得第三名。
translated by 谷歌翻译
多视图数据通常在数据挖掘应用程序中遇到。从多视图数据中有效提取信息需要特定的聚类方法设计,以适应具有多种视图的数据,这是非平凡且具有挑战性的。在本文中,我们通过利用不同观点的常见和特定信息的双重表示,提出了一种新颖的一步多视图聚类方法。动机源于以下理由:多视图数据不仅包含视图之间的一致知识,还包含每个视图的独特知识。同时,为了使表示学习更具体地针对聚类任务,提出了一个单步学习框架,以整体整合表示表示和聚类分区。在此框架中,表示形式学习和聚类分区相互受益,从而有效地改善了聚类性能。在基准多视图数据集上进行的广泛实验的结果清楚地证明了该方法的优越性。
translated by 谷歌翻译
由多种方法或来自多个源收集的数据称为多视图数据。为了充分利用多视图数据,多视图学习起着越来越重要的作用。传统的多视图学习方法依赖于大量标记和完成的多视图数据。然而,在现实世界应用中获得大量标记的多视图数据是昂贵且耗时的。此外,由于数据收集失败,自我缺陷或其他原因,多视图数据通常不完整。因此,我们可能不得不面对实际应用方案中的较少标记和不完整的多视图数据的问题。在本文中,提出了一种转导的半监督不完全多视图TSK模糊系统建模方法(SSIMV_TSK)以解决这些挑战。首先,为了减轻标记数据的依赖性并保持模型可解释,所提出的方法集成了缺失的视图估算,伪标签学习的未标记数据,模糊系统建模到一个过程中,以产生具有可解释模糊规则的模型。然后,提出了两个新机制,即,对实例和标签的双向结构保存以及自适应多对准协作学习,以改善模型的鲁棒性。所提出的方法具有以下独特特征:1)它可以同时处理不完整和少数标记的多视图数据; 2)将缺失的视图估算和模型学习集成为单个过程,比传统的两步策略更有效; 3)归因于可解释的模糊推理规则,这种方法更具可解释。实验结果对真实数据集表明,该方法显着优于最先进的方法。
translated by 谷歌翻译
当由于数据隐私或传输限制而无法共享来自不同来源的数据时,常规的集中式深度学习范例是不可行的。为了解决这个问题,已经引入了联合学习,以通过非共享数据跨多个来源(客户)转移知识,同时优化了全球概括的中央模型(服务器)。现有的联合学习范式主要集中于在模型中转移整体高级知识(例如类),这些知识与感兴趣的特定对象密切相关,因此可能会遭受反向攻击。相比之下,在这项工作中,我们考虑转移对感兴趣的特定对象不敏感的中级语义知识(例如属性),因此更具有隐私性和可扩展性。为此,我们制定了一个新的联合零局学习(FZSL)范式,以通过非共享本地数据学习中级语义知识,并累积了全球概括的部署中心模型。为了提高模型判别能力,我们建议探索从外部知识中探索语义知识的增强,以丰富FZSL中的中级语义空间。对五个Zeroshot学习基准数据集进行的广泛实验验证了我们通过中级语义知识转移优化可通用联合学习模型的方法的有效性。
translated by 谷歌翻译
蛋白质通过折叠到特定的3D结构来执行生物学功能。为了准确地模拟蛋白质结构,应仔细考虑氨基酸(例如侧链扭转角度和氨基酸际方向)之间的总体几何拓扑和局部细粒关系。在这项工作中,我们提出了定向的体重神经网络,以更好地捕获不同氨基酸之间的几何关系。我们的新框架将单个重量从标量扩大到3D定向矢量,支持经典和SO(3)的丰富几何操作(3) - 表示特征,在其上,我们构建了一个可用于处理氨基酸的感知器单元信息。此外,我们还引入了一条蛋白质上的范式传递范式,以将定向权重的感知器插入现有的图形神经网络中,从而显示出在全球尺度上保持SO(3) - 均衡性方面的较高多功能性。实验表明,与经典的神经网络和(全球)模棱两可的网络相比,我们的网络在表示几何关系方面具有更好的表现力。它还在与蛋白质3D结构有关的各种计算生物学应用上实现最新性能。
translated by 谷歌翻译
通过扫描真实世界对象或场景采集的3D点云人已经发现了广泛的应用,包括融入式远程呈现,自动驾驶,监视等。它们通常是由噪声扰动或由低密度,这妨碍下游的任务,如表面重建遭受和理解。在本文中,我们提出了点集的二次采样恢复,这获知会聚点朝向下方的表面的点云的连续梯度场的新型范例。特别是,我们表示经由其梯度场点云 - 对数概率密度函数的梯度,和执行梯度场是连续的,这样就保证了模型可解优化的连续性。基于经由提出的神经网络估计出的连续梯度场,重新采样点云量对输入噪声或稀疏的点云执行基于梯度的马尔可夫链蒙特卡洛(MCMC)。此外,我们提出了点云恢复,基本上迭代地细化中间重采样点云,并在重采样过程容纳各种先验期间引入正则化到基于梯度的MCMC。大量的实验结果表明,该点集重采样实现了代表恢复工作,包括点云去噪和采样的国家的最先进的性能。
translated by 谷歌翻译
从扫描设备获得的点云通常受到噪声的扰动,这会影响下游任务,例如表面重建和分析。嘈杂的点云的分布可以看作是一组无噪声样品的分布$ p(x)$与某些噪声模型$ n $卷积,导致$(p * n)(x)$,其模式是基础干净的表面。为了确定嘈杂的点云,我们建议通过梯度上升将每个点的日志样本从$ p * n $增加 - 迭代更新每个点的位置。由于$ p * n $在测试时间是未知的,因此我们只需要分数(即对数概率函数的梯度)来执行梯度上升,因此我们提出了一个神经网络体系结构来估计分数$ P *。 n $仅给出嘈杂的点云作为输入。我们得出了训练网络并开发估计分数利用的非授权算法的目标函数。实验表明,所提出的模型在各种噪声模型下都优于最先进的方法,并显示了应用于其他任务(例如点云上采样)的潜力。该代码可在\ url {https://github.com/luost26/score-denoise}中获得。
translated by 谷歌翻译
We present a probabilistic model for point cloud generation, which is fundamental for various 3D vision tasks such as shape completion, upsampling, synthesis and data augmentation. Inspired by the diffusion process in nonequilibrium thermodynamics, we view points in point clouds as particles in a thermodynamic system in contact with a heat bath, which diffuse from the original distribution to a noise distribution. Point cloud generation thus amounts to learning the reverse diffusion process that transforms the noise distribution to the distribution of a desired shape. Specifically, we propose to model the reverse diffusion process for point clouds as a Markov chain conditioned on certain shape latent. We derive the variational bound in closed form for training and provide implementations of the model. Experimental results demonstrate that our model achieves competitive performance in point cloud generation and auto-encoding. The code is available at https://github.com/luost26/diffusionpoint-cloud.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译